FlashMLA-ETAP: Pipeline de atención transpuesta eficiente para MLA en NVIDIA H20 FlashMLA-ETAP acelera hasta 2.78x la inferencia de DeepSeek-R1 en GPUs H20, con menor error y mayor eficiencia. ¡Optimiza tu modelo ahora! 2026-06-03 · 1 min